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文本 增强 与 预 训练 语言 模型 在 网 络 问 政 留 言 分 类 中 


的 集成 对 比 研究 ” 


EHER KFA 
河 海 大 学 商学 院 ”南京 211100 


摘 X: [目的 /意义 ] 政 府 网 络 问 政 平 


数据 质量 差 .数量 少 等 问题 ,对 比 多 种 基于 BERT 改进 模型 与 文本 增强 技术 结合 的 分 类 效果 并 探 


台 是 政府 部 门 知晓 民意 的 重要 途径 之 一 ,为 提高 问 政 留言 分 类 的 精度 以 及 处 理 留言 


究 其 差异 原因 


[方法 /过 程 ] 设 计 网 络 问 政 留言 分 类 集成 对 比 模型 ,文本 增强 方面 采用 EDA 技术 与 SimBERT IIO. 

对 比 实 验 , 文 本 分 类 模型 方面 则 采用 多 种 基于 BERT 改进 的 预 训 练 语言 模型 (如 ALBERT, RoBERTa ) 进行 对 比 实 
验 。[ 结果 /结论 ] 实验 结果 表明 ,基于 RoBERTa 与 SimBERT 文本 增强 的 文本 分 类 模型 效果 最 佳 ,在 测试 集 上 的 
F1 值 高 达 92.0596 , 相 比 于 未 进行 文本 增强 的 BERT-base 模型 高 出 2.89% 。 同 时 ,SimBERT 文本 增强 后 下 1 值 相 
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LO ”类 的 效果 ,在 解决 同类 问题 时 具有 较 强 可 借鉴 性 。 
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高 0.61% 。 实 验证 明了 基于 RoBERTa 与 SimBERT 文本 增强 模型 能 够 有 效 提升 多 类 别 文本 分 


污 网 络 问 政 是 人 民 群 众 参与 政策 决策 维护 自身 权 
其 多 一 种 新 兴 民 主 参 与 方式 "1 。 秉承 “群众 的 事 无 小 
tm omo o NU 
Yin i Gt" trii 您 说 "“ 民 意 留 言 簿 ”等 多 
种 彩 式 的 网 络 问 政 平台 。 —9 《起 可 以 帮助 政 
府 部 门 更 加 方便 ,快捷 以 及 真实 地 了 解 百姓 们 的 意见 
和 诉求 ,大 大 提升 了 政府 部 门 的 办 事 效率 以 及 群众 满 
意 度 。 然 而 , 随 着 信息 时 代 的 来 临 ,网 络 信息 量 旦 现 几 
何 式 增长 ,政府 网 络 问 政 留言 亦 是 如 此 ,人 工分 类 处 理 
手段 已 远 远 跟 不 上 数据 增长 的 速度 。 因 此 ,将 自然 语 
言 处 理 (Natural Language Processing, NLP ) 技术 融入 
“智慧 政务 "体系 具有 重大 意义 

一 最 认为 ,政府 网 络 问 政 留言 分 类 是 提取 群众 贸 
言 中 有 价值 信息 的 先导 工作 ,以 往 的 留言 文本 分 类 方 
法 多 是 基于 人 工 筛选 ,往往 需要 耗费 大 量 人 力 物 力 。 
在 引入 自然 语言 处 理 技术 后 ,传统 的 文本 分 类 模型 往 


往 需 要 根据 不 同 的 任务 重新 训练 词 向 量 来 抽取 特征 ， 
模型 效果 的 好 坏 和 词 向 量 训练 语 料 质量 息息相关 。 与 
此 同时 , 问 政 留言 数据 可 能 存在 较 多 的 无 效 数 据 ,数据 
质量 的 低下 会 一 定 程度 上 影响 分 类 器 的 效果 。 
针对 以 上 问题 ,本 文通 过 对 多 种 BERT ( Bidirec- 
tional Encoder Representations from Transformers ) 系列 文 
本 分 类 模型 以 及 不 同 的 文本 增强 算法 模型 进行 集成 对 
比 研究 ,提出 了 基于 RoBERTa 与 SmBERT 文本 增强 的 
政府 网 络 问 政 留言 文本 分 类 模型 。 期 望 在 以 下 方面 作 
出 贡献 :中 将 预 训 练 语言 模型 技术 用 于 网 络 问 政 平台 留 
言 分 类 任务 中 ,通过 多 头 注 意 力 机 制 及 双向 Transformer 
网 络 结构 缓解 传统 分 类 器 无 法 有 效 解 决 “一 词 多 义 ” 的 
矛盾 ;@) 针 对 留言 文本 的 特殊 性 ,采用 文本 增强 模型 进 
行 集成 对 比 研究 , 找 出 最 优 组 合 , 一 定 程度 上 解决 留言 
文本 的 数据 质量 问题 ,以 提高 政府 部 门 工 作 效 率 ;@ 从 
模型 构造 角度 分 析 实 验 模型 表现 产生 差异 的 原因 ,从 而 
更 好 地 为 其 他 领域 文本 分 类 任务 以 及 传统 自然 语言 处 
理 下 游 任务 中 的 文本 处 理 实践 提供 借鉴 和 指导 。 


* 本 文系 中 央 高 校 基本 业务 费 项 目 “ 基 于 图 数据 库 的 水 利 知识 图 谱 关 键 技术 研究 "(项 目 编号 :B200207036) 研 究 成 果 之 一 。 
作者 简介 : 施 国良 (ORCID :0000 -0001 -7585 -640X) ,副教授 ,博士 ,E-mail: shigl@hhu. edu. cn; 陈 宇 奇 (ORCID :0000 -0001 -5755 -5208)， 


硕士 研究 生 。 
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2 研究 现状 


2.1 文本 表示 方法 研究 

文本 分 类 前 需要 对 文本 进行 建 模 , 抽 取 其 特征 并 
加 以 表示 ,选择 合适 的 文本 数据 特征 可 以 有 效 提升 分 
类 模型 的 效果 。 文 本 特征 表示 主要 分 为 向 量 空间 文本 
特征 表示 、 预 训练 词 向 量 文本 特征 表示 以 及 预 训练 语 
言 模型 的 文本 特征 表示 方法 。 向 量 空间 模型 采用 TF- 
IDF 算法 ,并 依据 词 频 赋予 权重 ,不 过 , 由 于 短文 本 特 


中 并 取得 了 不 错 的 效果 。 陈 燕 方 等 ”构建 了 在 线 商品 
可 信 度 因素 指标 ,并 在 此 基础 上 将 指标 体系 融入 SVM 
分 类 器 中 ,提出 了 DDAG-SVM 在 线 商 品评 论 可 信和 度 分 
类 模型 。 余 本 功 等 中 采用 SVM 与 随机 森林 的 多 通道 
的 建 模 方式 ,提出 了 nLD-SVM-RF 的 短文 本 分 类 算法 ， 
提高 了 模型 的 泛 化 性 能 。 

与 此 同时 , 随 着 数据 量 增加 以 及 计算 机 性 能 的 提 
升 ,深度 学 习 算 法 在 文本 分 类 领域 的 优势 也 逐渐 显现 
了 出 来 。 韩 栋 等 ”赋予 主题 句 较 高 的 权重 并 将 其 融入 


ess 


征 存 在 稀 跑 性 ,会 造成 传统 向 量 空间 过 于 稀 跑 ,进而 影 
响 分 类 结果 。 基 于 预 训练 词 向 量 的 文本 特征 表示 则 可 
以 有 效 解 决 向 量 矩 阵 稀疏 性 问题 , 马 思 丹 等 中 在 训练 
词 向 量 时 将 文本 关键 词 分 为 重 春 部 分 和 非 重 和 登 部 分 ， 
状 洒 用 参数 化 线性 加 权 方式 计算 两 部 分 的 相似 度 , 提 
HETIM Word2 vec 的 文本 分 类 方法 ,效果 明显 优 于 传 
量 空间 算法 ; 程 婧 等 指出 训练 词 向 量 时 常 因 缺 
汉 钨 需 词 样本 而 导致 低频 词 无 法 进行 有 效 更 新 ,提出 
可 通过 与 低频 词 相似 的 高 频 词 来 训练 指导 低频 词 更 新 
ee de eue re 


€ TA 无 
NCBI ROMA RR sd nat 
Aj 征 表 示 方 法 的 不 足 之 处 。 预 训练 指 的 是 在 无 标签 


字符 级 卷 积 神经 网 络 ( Convolutional Neural Networks, 
CNN) 中 进行 文本 分 类 研究 ; 杨 云 龙 等 ”为 解决 单一 
循环 神经 网 络 (Recurrent Neural Network, RNN) 无 法 长 
时 间 记 忆 问 题 ,提出 了 融合 胶 上 特征 的 门 控 循环 单元 
(GRU) 的 文本 情感 分 析 模 型 G-Caps ,有效 提高 了 中 文 
情感 分 析 的 效果 。 在 将 预 训练 语言 模型 作为 基础 分 类 
器 的 研究 方面 , 赵 肠 等 运用 中 文 医学 预 训练 模型 
( BERT-Re-Pretraining-Med-Chi ) 进行 文献 分 类 研究 ; 吴 
俊 等 “运用 BERT 模型 进行 文本 向 量化 后 接 入 BiL- 
STM-CRF 模型 进行 中 文 专业 术语 的 命名 实体 识别 
( Named Entity Recognition, NER ) 人 研究 , 相 比 于 传统 预 
训练 词 向 量 效果 显著 提升 ; 雇 胜 兰 等 则 是 将 BERT 
模型 作为 “教师 模型 "进行 模型 蒸馏 ,以 提升 Text-CNN 
等 轻 量 分 类 器 的 分 类 效果 ,从 效果 和 量 级 双方 面 对 分 


的 安 本 数据 上 ,以 预测 句子 中 的 下 一 个 词 为 目标 进行 
ge | 练 ,从 而 学 习 到 不 同 单词 的 上 下 文 表示 关系 。 
M E. Peters det] 在 2018 年 的 NAACL 会 议 中 提出 的 
EIM ( Embeddings from Language Models ) 模型 通过 双 


gi SEA 忆 网 络 (LongShort-Term Memory , LSTM ) 结 

构 构 建 动态 词 向 量 ,缓解 了 词 的 多 义 性 问题 ,从 此 开启 
了 NLP 任务 中 的 预 训练 语言 模型 时 代 。 在 此 基础 上 ， 
Google 的 J.Devlin 等 5 于 同年 10 月 提出 了 BERT f 
型 ,BERT 模型 采用 语义 表征 能 力 更 强 且 融入 了 自 注意 
力 机 制 的 Transformers 模型 Hes ELMo 中 的 LSTM 结 
FJ ,同时 利用 海量 公开 语 料 进行 训练 ,很 大 程度 上 提升 


类 算法 进行 了 优化 。 
2.3 文本 增强 算法 研究 

政府 网 络 问 政 留 言 属于 短文 本 的 一 种 , 相 较 于 长 
文本 ,一 般 篇 幅 较 短 ,并且 具有 较 强 的 随意 性 与 不 规范 
性 ,尤其 是 留言 文本 ,其 中 充斥 着 大 量 的 网 络 用 语 LH 
头 语 以 及 简称 ,导致 文本 噪音 较 大 ,质量 合格 的 文本 数 
量 有 限 。 文 本 数据 增强 技术 可 以 一 定 程 度 上 缓解 上 述 
问题 ,W. Jason 等 T 2019 年 总 结 提出 了 系统 性 文本 
增强 策略 (Easy Data Augmentation ,EDA ) , 主要 通过 词 
语 层面 的 变化 生成 新 的 句子 来 达到 文本 增强 的 效果 ; 
fir ^g RUEDA RNN 作为 生成 网 络 , CNN. 作为 判别 


了 预 训练 语言 模型 的 动态 词 向 量 表征 能 力 。 如 果 说 
ELMo 模型 开启 了 预 训练 语言 模型 的 时 代 ,那么 BERT 
模型 则 是 通过 注意 力 机 制 和 海量 训练 语 料 将 预 训练 语 
言 模型 推 向 高 潮 的 代表 。 
2.2 文本 分 类 算法 研究 


网 络 , 提 出 基于 生成 对 抗 网 络 (seqGAN) 的 电力 用 户 意 
图 文本 的 生成 模型 ,并 采用 BLEU 算法 验证 了 生成 文 
本 的 有 效 性 。 

2.4 ”研究 不 足 与 总 结 

文本 表示 方法 与 分 类 模型 方面 尽管 预 训练 词 向 


文本 特征 抽取 可 以 有 效 将 文本 转化 为 特征 向 量 以 
支持 后 续 任 务 , 分 类 算法 则 是 在 此 基础 上 区 分 短文 本 
的 特征 ,将 其 划分 至 正确 的 类 别 中 。 随 着 研究 的 深入 ， 
越 来 越 多 的 学 者 将 机 器 学 习 算 法 应 用 到 文本 分 类 任务 


量 的 文本 表示 方法 通过 词 租 入 将 不 同 的 词 (token) 映 
射 成 单一 向 量 有 效 缓解 了 传统 向 量 空间 表示 法 的 不 
足 , 但 仍 存在 以 下 问题 :中 训练 词 向 量 之 前 需要 进行 分 
词 ,分 词 词 库 的 不 精确 导致 无 法 有 效 识 别 未 登录 词 ,这 
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会 影响 向 量 表示 准确 度 。@ 不 同情 境 下 的 文本 表示 任 
务 (医学 背景 或 法 律 背景 等 ) 运用 同一 套 预 训练 词 向 
量 无 法 达到 最 佳 效果 ,而 根据 自身 任务 训练 词 向 量 需 
要 大 量 训练 语 料 和 训练 设备 的 支撑 ,实践 可 行 性 较 低 。 
@ 预 训练 词 向 量 可 以 解决 “一 义 多 词 "问题 , 却 不 能 
决 “ 一 词 多 义 "问题 。 因 而 ,本 文 实验 选用 预 训练 语言 
模型 进行 文本 特征 表示 与 分 类 。 与 此 同时 , 相 比 于 体 
量 庞大 的 BERT 模型 ,本 研究 在 此 基础 上 进行 改进 , 采 
用 基于 BERT 改进 的 RoBERTa! 与 ALBERT'"' 1 预 训 
练 语言 模型 进行 网 络 问 政 留言 的 分 类 ,并 尝试 后 接 神 
经 网 络 作为 分 类 器 的 方法 提升 模型 的 效果 。 

文本 数据 增强 方面 ,EDA 文本 增强 技术 多 基于 规 
则 变化 ,生成 的 文本 的 向 量 特征 表示 可 能 与 原文 差别 
不 二 从 而 导致 训练 样本 重复 无 效 ;与 此 同时 ,通过 生成 
对 皖 网 络 生成 的 文本 都 是 随机 无 规则 的 领域 文本 , 文 
本 的 类 别 标签 也 需 通 过 模型 的 判别 网 络 预 测 给 出 , 必 
然 佐 存在 一 定 的 误差 从 而 影响 模型 的 训练 。 因 而 针对 
E 运 问题 ,本 文 研究 采用 了 SimBERT 文本 增强 技 
JRsBimBERT 主要 以 BERT 模型 为 基础 利用 有 监督 相 
信 咬 本 对 训练 而 成 ,可 以 针对 特定 的 句子 生成 其 相似 
js 标签 则 使 用 原始 数据 标签 ,同时 解决 了 生成 文本 的 
- 合 多 义 问题 与 标签 不 精确 问题 。 
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3 ”模型 设计 与 整体 框架 


为 提高 政府 网 络 问 政 留 言 分 类 准确 性 以 推进 “ 智 
ABUS" 服务 体系 构建 ,本 文 设 计 了 网 络 问 政 留言 分 类 
集成 对 比 模型 ,以 近年 NLP 领域 较为 流行 的 BERT 预 
训练 语言 模型 及 其 改进 模型 作为 文本 表示 模型 并 结合 
EDA 及 SimBERT 文本 增强 算法 模型 完成 留言 文本 分 
类 任务 。 

实验 模型 总 体 设 计 框架 见 图 1。 文 本 分 类 模型 方 
面 , 本 文选 取 预 训练 语言 模型 BERT-base 作为 基线 模 
型 ,通过 字符 级 粒度 般 入 文本 特征 向 量 完成 网 络 问 政 
留言 分 类 任务 ,并 选取 BERT 及 其 附加 网 络 模型 .基于 
BERT 改进 的 预 训练 语言 模型 ALBERT 与 RoBERTa 进 
行 对 比 实验 。 与 此 同时 ,为 缓解 网 络 问 政 平台 留言 口 
语 化 严重 .数据 质量 低 等 问题 ,选取 了 基于 规则 增强 文 
本 的 EDA 文本 增强 算法 与 融合 了 自然 语言 生成 (Nat- 
ural Language Generation , NLG) 与 自然 语言 理解 (Natu- 
ral Language Understanding, NLU ) 的 相似 句 生 成 模型 
SimBERT 作为 文本 增强 模型 。 旨 在 通过 模型 间 的 集成 
对 比 实验 ,同时 结合 政府 网 络 问 政 留言 数据 自身 的 特 
点 ,设计 出 解决 同类 问题 的 最 优 模型 组 合 ,并 在 此 基础 
上 从 模型 构建 原理 的 角度 分 析 模 型 表现 差异 的 原因 。 


EDA 文 本 增强 
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1 网 络 问 政 留言 分 类 集成 对 比 模型 


3.1 文本 分 类 模型 选择 与 设计 

选择 BERT 及 其 改进 预 训练 语言 模型 生成 文本 字 
拱 和 向量 解决 文本 分 类 任务 主要 出 于 以 下 考虑 :中 预 
训练 语言 模型 可 以 不 依赖 于 传统 的 人 工 特 征 抽取 ,以 
端 到 端的 形式 完成 文本 的 向 量化 表示 并 加 以 微调 , 进 
而 应 用 于 其 下 游 任务 中 ;@ 基 于 双向 Transformer 结构 
及 注意 力 机 制 的 BERT 模型 在 文本 特征 抽取 时 可 以 有 
效 解决 “一 词 多 义 ” 等 问题 ;中 文 文本 存在 字 和 词 两 


种 不 同 的 划分 粒度 ,传统 的 预 训练 词 癌 量 多 在 分 词 后 
进行 训练 ,分 词 的 过 程 中 难免 出 现 误差 ,而 BERT 可 以 
基于 字符 级 粒度 进行 字 舱 入 ,在 中 文 任务 中 一 般 有 更 
好 的 表现 。 

BERT 全 称 为 多 层 双向 变换 器 编码 器 ” ,是 Google 
公司 于 2018 年 底 基于 融入 自 注意 力 机 制 的 Transform- 
er 结构 提出 的 预 训练 语言 模型 。BERT 的 优势 在 于 
其 强大 的 词 向 量 泛 化 能 力 ,不同 于 传统 的 one-hot 编码 
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以 及 word2vec 预 训练 静态 词 向 量 , BERT 通过 双向 
Transformer 结构 动态 调整 词 向 量 ,充分 融入 词语 上 下 


输出 


Enn 


Transformer 


编码 器 层 


Embedding 层 


输入 


NI 


文 信息 ,可 以 较 好 地 解决 一 词 多 义 问题 。BERT 模型 的 


结构 示意 图 如 图 2 所 示 : 


图 2 BERT 模型 结构 示意 


图 2 P E, Ee, Ey 表示 输入 文本 的 字 词 级 
Etibedding 层 ,而 后 经 过 双向 Transformer 编码 器 得 到 
EE Self-attention 机 制 融 入 上 下 文 信息 的 输出 7,7， 
OT, ,在 原始 BERT 模型 中 ,将 文本 的 输出 传人 一 个 
sax 层 即 可 得 到 最 终 的 分 类 结果 。 
BERT 模型 内 部 的 基础 结构 为 Transformer 模 
刑 9, 该 模型 是 基于 Self-attention 机 制 的 Seq2seq 模 
ENEI f] Encoder-Decoder 结构 模型 ,主要 是 通过 
Põdder 层 将 输入 序列 编码 为 固定 长 度 向 量 ,再 经 过 
Détoder 层 将 固定 长 度 向 量 解码 为 任务 所 需 长 度 的 输 
网 序列 。Transformer 模型 中 Encoder 模块 的 输入 是 广 
本 岳 词 嵌入 表示 ,并 且 融 入 了 位 置 编码 信息 Posittion 
Eriding。 模 型 的 核心 在 于 替换 传统 RNN 及 CNN 结 

Self-attention 层 , Self-attention 层 相 当 于 序列 编码 
层 , 主 要 作用 在 于 将 某 个 词 与 句子 中 其 他 部 分 内 容 的 
关系 融入 该 词 的 词 向 量 中 ,从 而 解决 一 词 多 义 问题 。 
其 主要 原理 及 计算 步 又 如 下 ; 

(1) 输 入 的 句子 文本 以 字 词 为 单位 嵌入 成 词 向 
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(2) 将 词 向 量 与 权重 矩阵 W", W, W 分 别 相 乘 ， 
得 到 与 之 对 应 的 Queries (q) , Keys (和) 以 及 Values (v) 向 
量 ,其 中 We, W, W 的 维度 分 别 为 Nx di, N«d,, N 
* d, , Queries 与 Keys 向 量 维 度 均 为 d, ,Values 的 维度 为 
d,o 


(3) 计算 每 个 向 量 的 score ,score =q * 上 ,该 分 数 为 
对 句子 中 某 个 词 进行 encoder 时 ,该 词 对 句子 中 其 他 部 
分 的 关注 度 。 


Ew, 
(5) £& softmax 后 得 出 的 权重 值 与 v 相 乘 ,得 到 加 
权 的 评分 向 量 , 最 后 再 进行 相 加 求 和 得 出 最 终 的 输出 


Z,2; = Y, Wj *Uio 


Attention(Q,K,V) = Sofimax( vx" 公式 (1) 
Head, = Attention( QW? , KW? ,VW' ) 公式 (2) 

MultiHead ( Q, K, V) = Concat ( head, , head, , +=, 
head,) W? 公式 (3) 

上 述 公 式 (1) 是 Self-attention 机 制 的 计算 公式 , 公 
式 (2) 公式 (3) 则 是 Multi Head Attention 的 计算 公式 ， 
其 中 W?, Wi, Wi 表示 第 i“ 头 ” 自 注意 力 机 制 中 的 权 
重 矩 阵 , 玉 "为 全 连接 层 的 矩阵 ,将 不 同 “ 头 ”的 自 注 意 
力 机 制 输出 横向 拼接 之 后 经 过 全 连接 层 构造 指定 维度 
的 最 终 输 出 结果 和 矩阵 。 

与 此 同时 ,BERT 模型 的 主要 创新 贡献 之 一 在 于 其 
独特 的 预 训练 方式 ,BERT 采用 和谈 项 语言 模型 ( Masked 
Language Model, MLM ) 以 及 下 一 句 预 测 模 型 ( Next Sen- 
tence Prediction , NSP) 作为 任务 进行 预 训练 ,可 以 有 效 
提升 模型 的 深度 双向 预测 能 力 以 及 推理 能 力 。BERT 
模型 的 输入 向 量 主要 由 词 向 量 、 段 向 量 以 及 位 置 向 量 
三 者 加 权 求 和 组 成 ,句子 开头 和 结尾 分 别 采 用 [ CLS] 
及 [SEP] 标 识 , 句 子 间 也 采用 [SEP |] 标识 进行 分 割 , 具 
体 结构 见 图 3。 

MLM 模型 主要 是 以 15% 的 概率 抹 去 句子 中 的 一 
个 或 几 个 词 , 训 练 模型 利用 剩余 的 字 词 去 预测 所 迹 基 
的 字 词 ,类似 于 完 形 填空 任务 。 这 样 做 的 目的 是 为 了 


(4) 对 不 同 单词 对 应 的 score ,利用 sofimax 激活 函 
数 将 其 转化 为 取 值 在 0 -1 内 且 总 和 为 1 的 数 作为 权 


在 不 影响 模型 理解 能 力 的 基础 上 防止 因 过 多 采用 
[MASK] 标 识 导致 模型 预 训练 的 效果 下 降 。 不 同 于 一 
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图 3 BERT 模型 输入 向 量 组 成 


股 的 双向 LSTM 只 能 训练 模型 从 左 至 右 以 及 从 右 至 左 
分 别 理解 左 侧 上 文 以 及 右 侧 下 文 的 信息 , 谈 项 语言 模 
型 可 以 双向 深度 训练 BERT 模型 的 句 间 信息 理解 能 
js 

NSP 模型 主要 目的 在 于 训练 模型 的 句子 级 别 间 的 
上 平 文 关系 ,主要 通过 输入 语料库 中 的 大 量 句子 对 
ARCH] B X4] A 下 一 句 的 概率 为 50% , 6] B 是 在 
语 粳 库 中 随机 选择 的 句子 的 概率 为 50% ,两 个 句子 间 
BEP] 标 识 隔 开 ,模型 则 根据 这 些 句子 对 数据 进行 
二 下 类 预测 训练 ,以 此 提高 自身 理解 句子 级 别 间 关系 
的 能 力 。 

CD) 另外, 本文 实验 在 此 基础 上 对 BERT 进行 改进 ,将 
BERT 输入 层 的 输出 向 量 结果 接 上 其 他 的 文本 分 类 器 ， 
紫 刀 我 们 选择 循环 神经 网 络 RNN 、 卷 积 神经 网 络 CNN 
以 惧 循 环 卷 积 神经 网 络 RCNN 作为 后 接 的 文本 分 类 
Abs Texi-RNN 模型 是 P.F. Liu 等 "提出 的 基于 循环 
神色 网 络 及 其 变种 (LSTM , GRU) 的 文本 分 类 器 ,通过 
双 同 循环 神经 网 络 可 以 一 定 程度 上 融入 上 下 文 语义 ， 
能 够 达到 较 好 的 分 类 效果 ,但 模型 训练 速度 较 慢 。TY 
Kim "首次 将 处 理 图 像 问题 的 卷 积 神经 网 络 应 用 到 文 
本 分 类 任务 中 ,提出 了 Text-CNN 模型 ,其 原理 是 把 句 
子 或 词 看 成 词 向 量 矩 阵 作 为 模型 的 输入 ,经 过 卷 积 层 
和 池 化 层 提取 句子 的 重要 特征 后 进行 分 类 。S. W. Lai 
等 ”将 Text-RNN 模型 与 Text-CNN 模型 相 结 合 , 提出 


以 下 改动 : 

(1) BERT 在 MLM 预 训练 任务 中 ,以 15% 的 概率 
随机 对 句子 中 的 Tokens 进行 MASK, 但 是 采用 这 种 方 
式 进 行 mask 时 ,一 旦 Tokens 被 选 定 了 ,在 接 下 来 的 整 
个 训练 过 程 中 将 无 法 改变 ,因此 这 种 方式 属于 静态 
Masking 法 。RoBERTa 在 MLM 预 训练 任务 中 则 采用 
了 动态 Masking 的 方式 ,在 训练 开始 前 将 全 部 数据 复 
制 10 份 , 并 对 10 份 数据 分 别 进行 MASK ,这 样 同样 一 
句 话 就 有 10 种 不 同 的 Masking 方式 。RoBERTa 通过 
对 Masking 方式 的 改进 ,在 不 同 的 任务 中 ,模型 性 能 平 
均 提 高 了 0.3% 。 

(2) RoBERTa 不 再 采取 BERT 的 NSP 预 训练 任 
务 ,而 是 通过 每 次 输入 多 个 连续 的 句子 来 训练 模型 捕 
提 和 句子 间 关 系 的 能 力 ,这 种 预 训练 方式 被 称 为 FULL 
SENTENCES ,改进 后 RoBERTa 在 句 间 关 系 推断 任务 上 
效果 得 到 提升 。 

(3) RoBERTa 参数 设置 上 采用 了 更 大 的 mini- 
batch。 相 比 于 BERT 的 256 batch size, RoBERTa 将 其 
调整 到 了 8k ,更 大 的 batch size 需要 配合 更 大 的 learn- 
ing rate, 可 以 在 提升 模型 训练 速率 的 同时 提高 模型 的 
效果 。 

(4) RoBERTa 的 预 训 练 数 据 大 小 是 BERT 的 10 
倍 。RoBERTa 使 用 总 计 160GB 的 文本 训练 数据 ,除了 
BERT 本 身 的 训练 数据 外 ,还 包含 了 诸如 Web 文本 语 


了 Text-RCNN 模型 ,模型 通过 RNN 的 双向 循环 结构 捕 
捉 上 下 文 信息 ,并 通过 CNN 的 最 大 池 化 层 捕 捉 关 键 信 
息 ,解决 了 Text-RNN 模型 的 偏 倚 性 问题 以 及 Text-CNN 
模型 中 国定 窗口 提取 特征 的 弊端 。 
3.1.2 RoBERTa 模型 

2019 4E , Facebook 提出 了 基于 BERT 改进 的 预 训 
练 语言 模型 RoBERTa", 其 在 模型 层面 并 没有 对 
BERT 的 结构 作出 改动 ,主要 是 针对 模型 的 预 训练 方式 
进行 了 调整 和 优化 ,并 在 当时 众多 下 游 NLP 任务 中 达 
到 了 SOTA , 相 比 于 原始 的 BERT, RoBERTa 主要 作 了 


料 库 (38GB) .Common Crawl News 数据 集 (76GB ) 等 数 
据 , 并 在 更 大 的 GPU 集群 上 训练 了 更 久 的 时 间 。 
3.1.3 ALBERT 模型 

为 了 进一步 提高 模型 的 性 能 ,XLNet'” 和 RoBER- 
Ta ^ 模型 在 优化 原始 BERT 预 训练 方式 的 同时 ,都 加 
大 了 训练 数据 的 量 和 训练 的 时 长 。 不 过 ,该 做 法 会 至 
使 模型 参数 量 过 大 ,虽然 当 一 个 模型 的 参数 量 逐 渐变 
多 时 ,模型 的 效果 会 有 所 提升 ,但 是 当 模型 复杂 程度 过 
高 ,参数 量 过 大 时 ,模型 的 效果 反而 会 降低 ,这 种 现象 
成 为 “Model Degratation”。 为 解决 这 一 问题 ,有 研究 者 
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利用 知识 蒸馏 (Knowledge Distillation , KD ) 方 法 缩减 模 


层 的 全 部 参数 ,在 大 大 减少 了 模型 参数 量 的 同时 提升 


型 参数 ,其 中 以 DistillBERT 以 及 华为 诺 亚 方舟 实验 


了 模型 的 训练 速度 。 虽 然 模型 效果 有 所 下 降 , 但 可 以 


室 提 出 的 TinyBERT ”模型 为 代表 ,它们 均 能 达到 了 缩 
减 模型 大 小 以 及 减少 参数 的 目的 。 采 用 知识 蒸馏 的 方 
法 虽然 可 以 降低 模型 的 量 级 ,提高 模型 的 计算 速度 ,但 
却 会 以 牺牲 模型 的 性 能 为 代价 ,以 TinyBERT 为 例 , 模 
型 大 小 仅 为 BERT 的 13.3% ,参数 量 为 BERT 的 28% ， 
但 是 在 GLUE 基准 上 相 比 于 BERT 却 下 降 了 3 个 百 分 
点 。 


针对 上 述 问 题 , Google 的 蓝 振 忠 团队 "提出 了 


更 大 规模 的 数据 量 进行 训练 以 提升 模型 的 效果 。 
(3) RoBERTa 预 训 练 过 程 中 ,用 FULL SENTENC- 
ES 任务 代替 了 NSP 任务 ,而 ALBERT 则 是 基于 NSP f£ 
务 做 出 了 改进 ,提出 了 句子 顺序 预测 (Sentence-Order 
Prediction ,SOP) 预 训练 任务 。 相 比 于 NSP 任务 ,SOP 
任务 可 以 更 好 地 训练 模型 句 间 关系 推理 的 能 力 , 其 本 
质 依 旧 是 训练 一 个 二 分 类 器 ,上 且 正 样本 与 NSP 任务 相 
[n] ,不 过 负 样 本 则 改 为 预测 两 个 相 邻 的 句子 是 否 为 逆 
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ALBERT 模型 ,该 模型 通过 采用 对 Embedding 层 癌 量 进 
行 因 数 分 解 以 及 跨 层 参 数 共享 等 改进 措施 ,成 功 做 到 

了 在 模型 参数 量 缩小 18 倍 的 情况 下 ,模型 的 性 能 反而 
超过 了 BERT,XLNet 等 大 规模 预 训练 语言 模型 。AL- 
BERT 相 比 于 BERT 主要 进行 了 三 方面 改进 : 

( (1) Embedding 层 向 量 因 式 分 解 。BERT 中 词语 上 
etpedding 和 encoder 后 最 终 输 出 的 embedding 维度 : 
是 568， ALBERT 的 研究 团队 则 认为 词 的 原始 embed- 
dingt 比 于 隐藏 层 的 输出 embedding 所 蕴含 的 信息 量 
要 多 的 多 , 因 因此 可 以 减少 词语 级 别 embedding 的 维度 。 
龙湖 主要 是 通过 将 one-hot 癌 量 映射 到 低 维 空间 中 减 
发 Jii On | embedding 的 维度 (E) ,随后 再 映射 到 高 维 
ŠTORE KAZ encoder 入 出 维度 (HD 4 最 
型 的 参数 量 从 OCV * H) 降低 到 了 OCV» E+E 


o Transformer 模型 中 提出 了 
享 全 连接 层 或 者 Attention 
者 相 结合 ,同时 共享 编码 


Msi. BERRY 
层 的 参数 ,ALBERT 则 是 将 二 


序 句 子 对 。 

与 此 同时 ,ALBERT 还 做 了 诸如 移 除 dropout 层 等 
改进 ,真正 意义 上 同时 做 到 了 缩小 模型 大 小 和 提升 模 
型 性 能 的 地 步 , 为 BERT 系列 模型 真正 实现 工业 界 落 
地 打下 了 坚实 的 基础 。 

3.2. 文本 增强 模型 选择 与 设计 

文本 分 类 任务 中 不 同 场景 下 对 应 的 数据 质量 和 数 
量 都 会 有 所 差距 ,本 文 所 研究 的 政府 网 络 问 政 留言 交 
据 也 存在 着 噪声 大 合格 数 据 量 少 等 问题 。 为 缓解 因 
训练 数据 本 身 问题 所 导致 的 分 类 模型 效果 下 降 的 问 
题 ,文本 采用 了 EDA' 以 及 SimBERT' 文本 增强 技 
术 进 行政 府 网 络 问 政 留言 数据 增强 ,并 进行 了 相关 对 
比 实 验 以 探究 不 同文 本 增强 技术 的 效果 及 其 优 缺 点 。 
3.2.1 EDA 文本 增强 

作为 系统 性 文本 增强 策略 的 代表 ,EDA 文本 增强 
算法 主要 采用 传统 的 基于 规则 层面 的 文本 增强 方法 ， 
即 对 句子 词语 及 语法 层面 做 出 相应 的 修改 操作 ,EDA 
文本 增强 的 主要 数据 操作 及 示例 如 表 1 所 示 : 


表 1 EDA 文本 增强 数据 操作 


数据 操作 具体 方法 示例 数据 
同义词 替换 随机 抽取 句子 中 的 N 个 单词 ,对 其 进行 同义词 替换 A 市 魅力 之 城 小 区 楼 下 噪音 扰民 
随机 替换 选中 句子 中 的 随机 两 个 单词 并 交换 其 位 置 ,可 重复 多 次 小 区 A 市 风力 之 城楼 下 噪声 扰民 
随机 删除 指定 数值 概率 P(P 为 参数 ) , 句 中 的 每 个 单词 以 概率 进行 删除 A 市 之 城 小 区 楼 下 噪声 扰民 
随机 插入 从 句子 中 抽取 一 个 单词 ,并 将 其 同义词 插入 句 中 的 随机 位 置 A 市 魅力 之 城 小 区 美丽 楼 下 噪声 扰民 
3.2.2 SimBERT 文本 增强 UniLM 本 质 是 一 种 统一 的 预 训练 语言 模型 , 主要 通过 
经 实验 ,EDA 文本 增强 技术 可 以 一 定 程 度 上 提升 | 特殊 的 Attention MASK 方式 将 多 个 相 异 的 语言 模型 以 


模型 的 表现 ,但 基于 规则 的 数据 增强 方法 仍 存在 不 足 ， 
为 进一步 提升 文本 增强 的 效果 ,本 文 尝试 采用 Sim- 
BERT 文本 增强 模型 ””。SimBERT 是 以 BERT 模型 为 
基础 ,采用 了 微软 提出 的 UniLM 模型 “训练 思想 的 融 
生成 与 检索 为 一 体 的 生成 式 语言 模型 。 

UniLM 以 多 层 Transformer 模型 为 主体 架构 ,该 模 
型 融合 了 自然 语言 生成 与 自然 语言 理解 的 功能 。 


共同 目标 进行 联合 预 训练 ,并 且 在 训练 过 程 中 通过 单 
个 Transformer 模型 对 不 同 的 语言 模型 实现 参数 共享 ， 
此 类 参数 共享 方式 可 以 让 模型 能 够 同时 学 习 并 融合 不 
同 的 文本 特征 表示 , 从 而 达到 联合 优化 的 效果 。 
UniLM 主要 是 在 Bidirectional LM , Unidirectional LM 以 
三 种 语言 模型 上 进行 联 


及 Sequence-to-Sequence LM 这 
合 训练 。 
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SimBERT 则 是 借鉴 了 UniLM 中 Seq2Seq 部 分 的 训 
练 方式 ,属于 有 监督 训练 ,训练 语 料 是 所 收集 到 的 大 量 
相似 文本 对 , 主要 训练 目标 是 构建 能 够 预测 给 定 句子 
相似 句 的 Seq2Seq 部 分 。 在 SimBERT 的 训练 中 ,相似 
句 对 中 的 不 同 句子 通过 [SEP] 标 识 符 隔 开 , 并 在 此 基 
础 上 运用 特殊 的 Attention MASK Z7 5X, Bl fe [ SEP ] fiti 
半 部 分 句子 中 的 每 个 tokens 之 间 做 双向 Attention , 后 
半 句 的 tokens 间 则 做 单 向 Attention 操作 ,模型 可 以 递 
归 预 测 后 半 句 ,从 而 具备 NLG 的 能 力 。 在 此 基础 上 ， 
SimBERT 还 在 输入 时 加 入 了 随机 [ MASK] ,这 样 模 型 
在 训练 的 过 程 中 可 以 做 MLM 任务 , MLM 任务 可 以 训 
练 模型 的 NLU 能 
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4.» 数据 来 源 与 预 处 理 
> 本 文 的 实验 数据 均 来 源 于 我 国 某 省 相关 网 络 问 政 
容 2014 - 2020 年 的 部 分 真实 留言 数据 ,检索 时 间 为 
到 年 4 月 ,共计 9 281 条 。 数 据 包含 城乡 建设 ,劳动 
和 名 会 保障 教育 文体 交通 运输 等 7 个 类 别 。 数 据 预 
处 理 方面 ,对 获取 的 数据 以 留言 文本 长 度 、 重 复数 据 等 
为 标准 进行 去 重 ,并 对 留言 文本 中 所 包含 的 市 .区 、 县 、 
镇 等 地 点 敏感 词汇 进行 脱 敏 处 理 ,最 后 以 8:2 的 比例 
划分 训练 集 和 测试 集 并 在 训练 集中 以 相同 比例 划分 出 
验证 集 ,从 而 得 到 最 终 的 实验 数据 集 , 部 分 数据 展示 见 
表 2, 留 言 类 别 分 布 情况 见 图 5。 

由 网 络 问 政 留言 数据 类 别 分 布 情况 可 知 ,城乡 奸 
Wt 劳动 和 社会 保障 和 教育 文体 类 别 的 留言 较 多 ,这 三 
类 贯穿 了 人 们 日 常生 活 的 基本 层面 。 城 乡 建设 中 大 多 
数 问题 反应 的 是 小 区 物业 问题 以 及 周遭 生活 环境 问题 
等 ,拥有 好 的 住宿 条 件 及 环境 是 人 民 和 群众 的 安生 立 命 
之 本 ,是 开展 其 他 社会 活动 的 最 根本 前 提 ; 劳 动 和 社会 
eeu Ml ce E a EE 
劳动 和 社会 保障 问题 也 是 促进 社会 公平 的 重要 途经 
< 


w L e L 


«T TOT STATS TT TS Te TT 


ZEBBEBBBdEE-EEEBEEEEELD 


训练 过 程 中 , SimBERT 将 每 个 batch 内 所 有 的 
LCLS] 句 向 量 拼接 形成 句 向 量 矩 阵 DeR"( 其 中 6 为 
batch. size ,d 为 hidden. size) ,并 在 hidden, size 维度 上 做 
L, 1E JU EJ IAE UU AB E D, PRG T3 Js 3 90 Ec AC 
相似 度 矩 阵 DD” e R^ ,其 中 对 角 线 部 分 被 MASK 掉 。 
SimBERT 通过 相似 度 和 矩阵 让 模型 做 分 类 任务 ,其 中 负 
样本 即 不 相似 文本 ,并 借助 softmax 操作 来 增加 正 样本 
的 相似 度 ,同时 降低 负 样本 的 相似 度 。 最 终 SimBERT 
的 损失 函数 即 为 Seq2Seq 损失 与 相似 名 分 类 器 中 soft- 
max 层 损 失 相 加 的 联合 损失 函数 ,训练 方式 示意 图 如 
4 所 示 : 


图 4 SimBERT 模型 训练 方式 


R2 网 络 问 政 留言 数据 


留言 文本 留言 所 属 类 别 
A2 区 泰 华 一 村 小 区 第 四 届 非 法 业 委 会 涉嫌 侵占 小 区 城乡 建设 
主公 共 资 金 
El 区 液压 件 厂 金 星 村 居民 区 内 有 很 多 机 械 配 件 加 工 环境 保护 
三 ,污染 环境 
A 市 交通 运输 局 外 十 字 路 口红 绿灯 不 亮 ,交通 事故 频 发 交通 运输 
关于 尽快 建立 上 市 民办 学 校 教师 社会 保险 制度 的 建议 教育 文体 
《关于 开展 城乡 居民 大 病 保 险工 作 的 指导 意见 》 是 怎样 ”劳动 和 社会 保障 
实施 执行 的 呢 
请 M2 县 相关 部 门 调查 这 样品 牌 经 营 模式 ,以 及 是 否 涉 商贸 旅游 
B 县 大 通 湖区 无 法 办 理 流动 人 口 证 明 婚 育 证 明和 准生证 卫生 计生 


满足 基本 生活 需求 前 提 下 人 们 对 于 自身 更 好 发 展 的 追 
求 。 因 此 ,在 网 络 问 政 留 言 中 人 们 对 上 述 三 类 问题 关 
注 度 最 高 也 是 最 迫切 希望 得 到 解决 的 问题 。 如 何 有 效 


地 从 大 量 、 繁 杂 的 留言 中 正确 识别 出 人 们 关注 的 问题 
所 属 类 别 是 提高 政府 部 门 行 政 办 事 效率 的 基础 性 工 
TE ,也 是 保障 人 民 和 群众 基本 利益 的 重要 手段 之 一 。 
4.2 实验 设置 
4.2.1 实验 环境 设置 

本 文 实验 主要 在 PyCharm 上 运行 ,实验 语言 采用 
Python 3.7.3, 具 体 的 实验 环境 与 软 人 硬件 相关 配置 见 
表 3。 
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gott dolores Un]. is s Re DA D ERT! 


96 — 107. 
x 
器 
$ 
Ju 
EE 
5 5 网 络 问 政 留言 类 别 分 布 
e? R3 实验 环境 配置 表示 用 seq2seq 生成 的 n 个 相似 句 ,k 表示 在 生成 的 相 
LO 实验 环境 具体 配置 似 句 中 ,经 过 encoder 计算 相似 度 后 返回 最 相似 的 上 个 
e 操作 系统 Windows10 旬 子 。 
e CPU Intel Core 17 bin 4. 3 实验 结果 分 析 与 讨论 
e Bh NVIDIA poni. 4.3. 1 模型 效果 评估 指标 
CO Biden Rs 网 络 问 政 留言 分 类 问题 属于 文本 分 类 问题 ,为 检 
a TensorFlow 1.13.1 验 对 比 模型 的 效果 ,本 文采 用 精确 率 ( Precision ,P) ` A 
N Pytorch 1.3.1 [2] 3& ( Recall, R) 以 及 F1 [Ei ( F-score ) 作为 模型 效果 衡 
Keras 2.3.1 量 指标 。 精 确 率 (P) ARR) AUR F1 值 计算 公式 


42S 模型 参数 设置 
四 本 文 的 网 络 同 政 留言 分 类 集成 对 比 模型 主要 分 为 

文 杰 分 类 模块 与 文本 增强 模块 ,为 实现 模型 在 验证 集 
ne 

文本 分 类 模型 方面 ,选取 三 种 不 同 的 中 文 预 训练 
语言 模型 ,分 别 是 开源 的 bert_base_chinese 模型 albert 
_base_chinese 模型 以 及 robert_base_chinese 模型 。 其 
中 BERT 模型 共计 12 层 ,采用 12 头 注意 力 模式 , 隐 层 
为 768 维 ,模型 的 参数 量 为 110M; ALBERT 模型 共计 
12 层 , 隐 层 为 128 维 , 参 数量 为 12M; RoBERTa 模型 共 
计 6 层 , 隐 层 为 384 维 ,参数 量 为 200M。BERT 基准 模 
型 中 ,文本 长 切 短 补 pad_size 设置 为 128 ,批量 训练 大 
小 batch, size 为 32 ,初始 学 习 率 learning, rate 为 2e -5， 
采用 的 优化 器 为 BertAdam。ALBERT 模型 与 RoBERTa 
模型 的 优化 器 为 AdmLR learning rate 设置 为 le —4, 
其 余 参数 与 BERT 基准 模型 相同 。 

文本 增强 模型 方面 ,EDA 参数 中 ,名 中 每 个 词 被 替 
换 的 概率 alpha 设置 为 0.3 ,生成 个 数 num. aug 设置 为 
1, SimBERT 参数 中 ,n 设置 为 25,k 设置 为 1, 其 中 


TE 


如 下 所 示 : 
TP 


P=7p+Fp 公式 (4) 
TP 

R- TP. EN qon 
2*P*R " 

Hl 公式 (6) 


其 中 ,精确 率 (P) 表示 真 的 正 样本 预测 为 正 样本 
(7P) 的 个 数 占 所 有 预测 为 正 样本 个 数 (TP + FP) W ke 
例 ;召回 率 (R) 表 示 真 的 正 样本 预测 为 正 样 本 (7P) 占 
真实 正 样 本 个 数 (TP + FN) 的 比例 ;Fl 值 则 是 精确 率 
与 召回 率 的 调和 平均 指标 ,可 精确 反映 出 模型 多 方 卫 
效果 的 好 坏 。 

4.3.2 集成 对 比 模型 效果 分 析 

为 对 比 不 同文 本 增强 技术 以 及 预 训练 语言 模型 在 
网 络 问 政 留 言 分 类 任务 上 的 集成 对 比 效果 ,本 文 设计 
了 网 络 问 政 留 言 分 类 集成 对 比 模型 ,并 在 训练 集 上 进 
行 训练 ,通过 验证 集 优化 训练 结果 ,最 终 在 测试 集 上 通 
过 上 述 指标 进行 模型 效果 评价 。 具 体 实 验 结果 如 表 4 
及 图 6 所 示 : 


103 


&Q 54i xt 


$865 35 58 13 Hg. 2021 5£7 月 


ChinaXiv& fERBTII 


X4 网 络 问 政 留言 分 类 模型 效果 对 比 


SimBERT 增强 


模型 原始 数据 Fl 值 /% EDA 增强 Fl 值 /2 Ri m 
BERT-base 89.16 89.18 89.25 
BERT + RNN 88.32 89.54 89.33 
BERT + CNN 89.51 89. 63 90.29 
BERT + RCNN 90. 68 91.25 91.52 
ALBERT 90. 89 91.86 91.05 
RoBERTa 91.28 91.93 92.05 
0.94 

—e— 原始 数据 

—— EDA 增 强 


到- SimBERT 增 强 


0.927 


6 T T T T T T 
ERT-base BERT-RNN BERT«CNN BERT-RCNN ALBERT RoBERTa 


图 6 网 络 问 政 留言 分 类 模型 效果 对 比 


琵 台 比 结果 可 知 ,在 不 考虑 文本 增强 的 前 提 下 , Ro- 
BERTa 模型 在 网 络 间 政 留 言 分 类 任务 上 的 表现 最 佳 ， 
FIKEI f 91. 28% 。ALBERT 模型 的 FI 值 也 高 达 
96,899. BERT 系列 模型 的 Fl 值 平均 为 89.42% , 明 
AE T RoBERTa 与 ALBERT 模型 的 分 类 效果 。 

斧 一 方面 ,前 四 个 模型 中 BERT-base .BERT + RNN 
S BERT + CNN 的 模型 效果 区 别 不 大 , BERT + RCNN 
模型 的 分 类 性 能 明显 高 于 前 三 者 ,甚至 在 文本 增强 后 
其 效果 均 超 过 了 未 进行 文本 增强 的 ALBERT 模型 。 究 


其 原因 ,是 因为 RCNN 网 络 结构 融合 RNN 与 CNN 
络 结构 的 优点 , 既 可 以 通过 双向 循环 的 RNN 结构 捕 
到 句子 的 上 下 文 信息 ,又 可 以 通过 CNN 中 的 最 大 池 化 
层 捕 捉 到 句 中 的 关键 信息 ,可 以 更 加 准确 地 表达 句子 
的 语义 结构 。 

另 一 方面 ,ALBERT 与 RoBERTa 模型 的 效果 更 好 
主要 是 因为 二 者 都 是 基于 BERT 的 改进 预 训练 语言 模 
型 , 相 比 于 BERT ,都 采用 了 更 大 的 训练 数据 量 和 更 长 
的 训练 时 间 。RoBERTa 主要 在 BERT 的 预 训练 任务 上 
进行 了 改进 ,将 静态 Masking 转化 为 动态 的 Masking 的 
同时 ,提出 了 FULL-SENTENCES 预 训练 任务 训练 模型 
的 句 间 理解 能 力 。ALBERT 则 是 在 将 NSP 预 训练 任务 
改 为 SOP 预 训练 任务 时 ,提出 了 通过 词 舱 入 层 因 式 分 
解 和 跨 层 参数 共享 的 方式 大 幅度 减少 了 模型 的 参数 
量 , 从 而 可 以 在 同等 的 时 间 及 空间 复杂 度 上 可 以 用 更 
多 的 数据 进行 模型 训练 。 在 论文 “中 ,ALBERT 在 绝 
大 多 数 任务 中 表现 都 要 好 于 RoBERTa ,但 本 文中 Ro- 
BERTa 的 Fl 值 却 比 ALBERT 高 出 0.39% ,除了 不 同 
数据 背景 的 影响 外 ,还 因为 问 政 留言 分 类 属于 标注 任 
务 , 在 标注 任务 中 , RoBERTa 的 效果 要 略 优 于 AL- 
BERT ,与 本 文 实验 结果 一 致 。 

(2) 网 络 问 政 留言 文本 增强 效果 分 析 。 文 本 增强 
方面 本 文 主要 采用 基于 规则 的 EDA 文本 增强 算法 与 
基于 相似 句 生成 的 SimBERT 文本 增强 模型 。 在 进行 
数据 预 处 理 及 划分 训练 集 .验证 集 以 及 测试 集 后 ,通过 
文本 数据 增强 技术 将 训练 集 的 数据 量 扩充 至 原来 的 两 
倍 , 并 重新 进行 模型 训练 ,与 未 进行 数据 增强 前 的 模型 
进行 比较 与 分 析 。 两 类 模型 下 未 增强 前 数据 与 增强 后 
数据 的 对 比 结果 如 表 5 Bron : 


和 GE 


表 5 文本 增强 数据 对 比 展示 


序号 未 增强 数据 EDA 增强 后 数据 


SimBERT 增强 后 数据 留言 类 别 


1 KR 县 人 民 医 院 主治 医生 却 开外 面 药房 的 药 


药 


2 ”对 K5 县 打造 润 龙 塔 的 一 些 建议 


3 。 BEVE GS 县 小 渡口 镇 政府 哮 箱 操作 招标 项 目 
4 — 强 列 要 求 能 言 中 学 退还 自主 招生 中 违规 收 

取 的 7800 元 
5 反映 A2 区 青 园 花 都 电梯 安全 问题 


收取 的 7800 元 


表 5 展示 了 相同 的 文本 内 容 经 过 EDA 和 Sim- 
BERT 模型 文本 增强 后 的 效果 ,我 们 可 以 看 到 ,EDA 文 
本 增强 正如 其 原理 一 样 ,仅仅 是 基于 规则 进行 个 别 词 


K3 县 治 民众 医院 主治 医 4 


对 KS 县 营造 润 龙 塔 的 些许 意见 


举报 G5 县 小 河上 镇 政府 暗箱 操作 招标 计划 
强烈 要 求 十 诚 初中 退还 自主 招生 中 不 合 规 


反映 A2 区 青 园 花 都 楼 梯 安 全 原因 


E 却 放 外 面 药房 的 ”KK3 县 人 民 医 院 主 治 医 生 开 了 外 面 药店 的 “卫生 计生 
药 ,怎么 办 


如 何 评价 k5 县 的 泣 龙 塔 


教育 文体 


投诉 g5 县 小 渡口 镇 政府 招商 招标 怎么 投诉 
租 言 中 学 自主 招生 中 违规 收费 7800 元 怎么 
办 
a2 区 青 园 花 都 电梯 安全 事故 如 何 处 理 


城乡 建设 
教育 文体 


商贸 旅游 
语 的 调 序 和 替换 ,而 SimBERT 文本 增强 则 不 是 简单 的 
调 序 ,更 倾向 于 以 疑问 句 的 方式 对 原始 语句 进行 改写 。 

与 此 同时 ,由 表 4 及 图 6 的 模型 效果 对 比 结果 可 
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见 ,由 于 数据 量 和 数据 质量 的 原因 ,文本 增强 前 后 模型 
的 分 类 效果 也 有 明显 区 别 。 对 比 实验 结果 可 知 ,经 过 
EDA 和 SimBERT 文本 增强 后 的 模型 Fl 值 较 文本 增强 
前 分 别 平均 提高 了 0.59% 和 0.61% ,证 明 在 数据 量 有 
限 或 数据 质量 低下 的 前 提 下 ,通过 文本 增强 模型 构造 
训练 数据 ,确实 能 够 一 定 程度 上 提升 模型 的 效果 。 
SimBERT 文本 增强 后 的 Fl 值 较 EDA 文本 增强 平 
均 提升 了 0.02% , 究 其 原因 ,EDA 数据 增强 是 基于 规 
则 对 文本 数据 进行 相关 操作 ,虽然 增强 后 的 效果 有 所 
提升 ,但 仍 存在 以 下 缺点 :四 同义词 替换 后 的 词 可 能 与 
原 词 词 向 量 差 距 不 大 ,导致 数据 增强 效果 一 般 ;@) 随 机 
删除 单词 可 能 会 删除 句 中 的 核心 关键 词 导致 与 初始 文 
本 label 产生 偏差 ;@ 插 入 和 替换 操作 在 一 定 程度 会 改 
变 向 子 的 结构 语义 ,在 部 分 对 句子 结构 有 要 求 的 任务 
虑 玛 果 可 能 适得其反 。 而 SimBERT 模型 通过 Seq2Seq 
乡 隐 与 相似 句 分 类 任务 的 联合 训练 方法 ,能 够 在 自然 
语 前 生成 任务 上 具有 较 好 的 表现 ,一 定 程 度 上 提升 数 
握 酌 质量 ,但 是 由 于 生成 具有 一 定 的 随机 性 ,因而 在 个 
别 模型 上 EDA 文本 增强 后 的 效果 更 好 。 因 此 ,由 文本 
增强 实验 结果 可 知 ,文本 增强 技术 确实 能 够 提升 分 类 
模型 的 表现 效果 ,但 是 总 体 提 升 效 果 仍 然 有 限 。 
FO) RoBERTa-SimBERT 模型 结果 分 析 。 通 过 网 络 
De 言 分 类 集成 模型 对 比 结果 可 知 , 经 过 SimBERT 
文本 增强 后 的 RoBERTa 模型 的 分 类 效果 最 佳 , 相 比 于 
综 过 文本 增强 的 BERT-base 模型 和 BERT + RNN fi 
XUCEI 值 分 别提 高 了 2.89% 和 3.73% , RoBERTa-Sim- 
BERT 模型 的 详细 分 类 结果 如 表 6 所 示 
© x6 RoBERTa-SimBERT 模型 实验 结果 


留言 类 别 查 准 率 P/% 查 全 率 R/% F1 值 /% 
城乡 建设 91.20 93. 25 92.21 
劳动 和 社会 保障 92.39 93.92 93.15 
教育 文体 92. 86 96.59 94. 69 
商贸 旅游 90. 59 86.84 88. 68 
环境 保护 93. 12 91.19 92.15 
卫生 计生 93.51 89.18 91.29 
交通 运输 94. 00 90.38 92.16 
平均 值 (avg) 92.52 91.62 92.05 


由 表 6 n] nl, RoBERTa-SimBERT 模型 在 网 络 问 政 
留言 中 的 分 类 效果 总 体 较 好 ,其 中 教育 文体 .劳动 和 社 
会 保障 以 及 城乡 建设 类 别 分 类 效果 最 好 ,Fl1 值 分 别 为 
94.69% .93. 1596 以 及 92.21% ,这 三 类 恰好 也 是 留言 
数据 量 最 多 、 人 们 最 关注 的 问题 类 别 。 相 对 来 说 ,卫生 
计生 和 商贸 旅游 的 分 类 效果 较 差 ,Fl 值 仅 为 91.29% 
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fH 88.6896, 3$ 7 是 RoBERT-SimBERT 模型 在 测试 集 
上 分 类 错误 的 典型 实例 ,本 文通 过 分 析 错 误 实 例 , 试 图 
探究 不 同 留言 类 别 之 间 分 类 效果 产生 差异 的 原因 。 
表 7 RoBERTa-SimBERT 模型 错 分 类 实例 
留言 文本 错 分 类 别 ” 正 确 类 别 

没有 CCC 认证 的 广告 机 在 A 市 大 批 上 市 ,公共 安 ”城乡 建设 商贸 旅游 

全 隐患 突出 
县 天 党 镇 文化 站 蒋 为 将 国家 卫星 接收 器 据 为 已 有 ”商贸 旅游 ”教育 文体 
通 往 K6 县 独 坡 乡 坎 寨 村 六 组 的 路 太 不 好 走 了 城乡 建设 ”交通 运输 
工 市 禾 塘 村 罗 子 坡 水 库 食品 黑 作 坊 无 证 生产 豆腐 ”卫生 计生 ”商贸 旅 
供 入 市 场 


请 杜绝 虚假 医药 广告 ! 卫生 计生 
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从 而 影响 分 类 器 分 类 结果 的 类 别 主 要 集中 在 商贸 旅游 
与 卫生 计生 两 大 类 ,如 前 表 6 中 所 示 , 商 贸 旅游 类 的 
F1 值 仅 为 88. 6896 , 而 卫生 计生 类 虽然 Fl 值 超过 了 
91% ,但 是 其 查 全 率 仅 为 89. 18% 。 由 此 可 知 ,大 部 分 
错 分 类 实例 中 ,将 正确 类 别 为 商贸 旅游 的 类 别 错 分 成 
了 其 他 类 别 ,导致 商贸 旅游 类 的 整体 分 类 效果 较 差 , 而 
被 错 分 的 类 别 中 , 错 分 成 卫生 计生 类 的 留言 量 也 较 多 ， 
从 而 导致 了 卫生 计生 类 的 查 全 率 较 低 。 

通过 观察 错 分 类 实例 的 具体 留言 内 容 , 能 够 从 定 
性 的 角度 分 析 分 类 结果 产生 差异 的 原因 。 一 方面 ,应 
该 分 类 为 商贸 旅游 却 被 错 分 的 例子 往往 更 加 偏向 “ 商 
贸 ” 而 非 “ 旅 游 ”, 这 两 方面 确实 存在 理解 层面 的 一 定 
差异 ,偏向 旅游 主题 留言 更 容易 被 正确 分 类 ,而 偏向 商 
贸 主题 的 留言 容易 与 其 他 类 别 , 尤 其 是 城乡 建设 类 别 
混淆 。 男 一 方面 , 错 分 为 卫生 计生 类 别 的 留言 内 容 中 ， 
有 很 多 都 是 生产 商 、 商 铺 的 卫生 问题 ,这 就 容易 与 商贸 
旅游 的 商贸 主题 混淆 ,从 而 影响 分 类 的 结果 。 

诸如 上 述 的 错 分 例子 还 有 很 多 ,分 类 器 的 错 分 与 
留言 文本 内 容 的 表达 息息相关 ,确实 有 部 分 存在 靶 义 
或 者 多 类 别 的 留言 ,这 种 留言 影响 了 模型 的 分 类 效果 。 
针对 上 述 问 题 ,通过 文本 增强 对 数据 进行 质量 和 数量 
的 提升 会 对 结果 带 来 一 定 的 改善 ,但 也 只 能 尽量 维持 
在 较 佳 的 分 类 水 平 , 想 要 进一步 提升 模型 的 分 类 效果 
还 需 从 原始 数据 源 的 优化 上 入 手 。 政 府 可 以 通过 在 其 
网 络 问 政 平台 上 对 留言 增加 细 粒 度 的 填写 限制 ,使 得 
留言 的 内 容 更 加 详细 规范 ,进而 提高 留言 分 类 的 效 


5 fit 


网 络 问 政 平台 的 兴起 给 了 人 民 和 群众 表达 自身 意见 
的 渠道 ,通过 对 留言 进行 有 效 的 分 类 可 以 方便 政府 部 
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门 更 好 地 把 握 民 意 , 更 好 地 自省 提升 。 为 提升 问 政 贸 
言 分 类 的 准确 性 以 及 提高 模型 端 到 端的 部 署 效率 ,本 
文 将 预 训练 语言 模型 与 文本 增强 技术 相 结合 ,经 对 比 
实验 提出 了 基于 RoBERT 与 SimBERT 文本 增强 技术 
的 政府 网 络 问 政 留言 分 类 模型 。 

传统 基于 预 训练 词 向 量 文本 特征 抽取 模型 无 法 很 
好 地 处 理 文本 “一 词 多 义 ”的 问题 ,BERT 系列 预 训练 
语言 模型 以 其 双向 Transformer 网 络 结构 及 多 头 注意 力 
机 制 成 功 解决 了 此 难题 。 同 时 ,利用 预 训练 语言 模型 
可 以 有 效 实现 端 到 端的 模型 部 署 ,能 够 根据 数据 进行 
微调 后 将 模型 有 效 运用 到 多 个 下 游 任务 中 ,基于 字符 
级 别 的 文本 向 量化 方式 也 更 加 适用 于 中 文 文本 表示 。 

此 外 ,为 有 效 解 决 问 政 留 言 领域 数据 质量 低下 的 
问题 ,本 文 利用 了 EDA 以 及 SimBERT 技术 进行 了 文本 
增强 来 缓解 训练 数据 不 足以 及 数据 质量 问题 。 研 究 结 
果 旅 明了 基于 SimBERT 所 生成 的 文本 质量 比 基 于 
区 生成 的 文本 质量 有 所 提升 ,同时 也 能 够 解决 文本 
代数 据 增强 领域 的 标签 预测 问题 ,为 其 他 相关 的 文 
本 增强 问题 提供 了 借鉴 和 思路 。 
二 与 此 同时 ,在 对 比 实验 中 ,将 当下 比较 热门 的 基于 
BÉ 改进 的 预 训练 语言 模型 ,如 BERT + RCNN AL- 
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BERT ,RoBERTa 等 运用 到 问 政 留言 分 类 问题 中 ,并 深 
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本 文 研究 存在 一 定 的 不 足 之 处 ,数据 集 的 选择 方 
面 覆盖 范围 较 小 ,主要 针对 的 是 问 政和 留言 多 分 类 问题 ， 
之 后 研究 可 以 运用 不 同 领域 的 数据 集 进行 对 比 以 探究 
通用 性 更 强 的 方案 及 模型 。 与 此 同时 ,可 以 运用 相关 
领域 语 料 对 预 训练 语言 模型 进行 微调 ,增加 其 在 特定 
领域 的 文本 表示 与 判别 能 力 。 模 型 结构 方面 ,后 续 的 
人 研究 可 以 尝试 在 ALBERT, RoBERTa 等 优秀 预 训练 语 
言 模 型 后 接 其 他 网 络 结构 ,以 期 取得 更 佳 效果 。 
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S A Comparative Study on the Integration of Text Enhanced and Pre-trained Language Models 

eo in the Classification of Internet Political Messages 

T Shi Guoliang Chen Yuqi 
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e Abstract: | Purpose/significance | Government network platform for political inquiry is one of the important 

Sb. for rulers to know public opinions. In order to improve the accuracy of the classification of political inquiry mes- 

(sages and to deal with the problems such as poor quality and small quantity of message data, the classification effects 

Cof various BERT improved models combined with text enhancement technology and the reasons for their differences 

Cere explored. | Method/process | Design the network political inquiry message classification integrated comparison 
inodel „the EDA (Easier Data Augment) technology and SimBERT text Augment technology were used for comparison 

“Ezperiment in the aspect of text augmentation, and various pre-training language models (such as ALBERT and Ro- 

M based on BERT improvement were used for comparison experiment in the aspect of text classification model. 
CResult/conclusion | The experimental results showed that the text classification model based on RoBERTa and Sim- 

BERT text enhancement had the best effect, and the F1 value on the test set was as high as 92.0596 , 2. 8996 higher 
M that of the Bert-Base model without text enhancement. At the same time, F1 value after SimBERT text enhance- 
ment was 0. 6196 higher than that before no enhancement. The experiment proved that text enhancement model based 
on RoBERTa and SimBERT can effectively improve the classification effect of multiple categories of text classification 
problems, and has strong referability in solving similar problems. 


Keywords: political platform text classification text enhancement BERT model 
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